xKV: Compresión de la Caché KV entre Capas mediante Extracción de Vectores Singulares Alineados
Aprende sobre la compresión de caché KV entre capas con vectores singulares alineados. Una técnica eficiente para reducir el uso de memoria en modelos de lenguaje manteniendo la precisión.